模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2022, Vol. 35 Issue (12): 1111-1121    DOI: 10.16451/j.cnki.issn1003-6059.202212006
“基于深度学习的图像理解及应用”专题 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于Vision Transformer的中文唇语识别
薛峰1, 洪自坤2, 李书杰1, 李雨2, 谢胤岑2
1.合肥工业大学 软件学院 合肥 230601;
2.合肥工业大学 计算机与信息学院 合肥 230601
Chinese Lipreading Network Based on Vision Transformer
XUE Feng1, HONG Zikun2, LI Shujie1, LI Yu2, XIE Yincen2
1. School of Software, Hefei University of Technology, Hefei 230601;
2. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601

全文: PDF (1611 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit, GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
薛峰
洪自坤
李书杰
李雨
谢胤岑
关键词 唇语识别Vision Transformer(ViT)深度神经网络编解码器注意力机制特征提取    
Abstract:Lipreading is a multimodal task to convert lipreading videos into text, and it is intended to understand the meaning expressed by a speaker in the absence of sound. In the existing lipreading methods, convolutional neural networks are adopted to extract visual features of the lips and capture short-distance pixel relationships, resulting in difficulties in distinguishing lip shapes of similarly pronounced characters. To capture the long-distance relationship between pixels in the lip region of the video images, an end-to-end Chinese sentence-level lipreading model based on vision transformer(ViT) is proposed. The ability of the model to extract visual spatio-temporal features from lip videos is improved by fusing ViT and Gate Recurrent Unit(GRU). Firstly, the global spatial features of lip images are extracted using the self-attention module of ViT. Then, GRU is employed to model the temporal sequence of frames. Finally, the cascading sequence-to-sequence model based on the attention mechanism is utilized to predict Chinese pinyin and Chinese character utterances. Experimental results on Chinese lipreading dataset CMLR show that the proposed model produces a lower Chinese character error rate.
Key wordsLipreading    Vision Transformer(ViT)    Deep Neural Network    Encoder-Decoder    Attention Mechanism    Feature Extraction   
收稿日期: 2022-07-08     
ZTFLH: TP391.41  
基金资助:国家自然科学基金项目(No.62272143)、安徽高校协同创新项目(No.GXXT-2022-054)、安徽省重大科技专项项目(No.202203a05020025)、安徽省第七届创新创业人才特殊支持计划资助
通讯作者: 薛 峰,博士,教授,主要研究方向为人工智能、多媒体分析、推荐系统.E-mail:feng.xue@hfut.edu.cn.   
作者简介: 洪自坤,硕士研究生,主要研究方向为计算机视觉.E-mail:hongzikun@mail.hfut.edu.cn.李书杰,博士,讲师,主要研究方向为计算机视觉、人体姿态估计.E-mail:lisjhfut@hfut.edu.cn.李 雨,博士研究生,主要研究方向为计算机视觉.E-mail:yuli@mail.hfut.edu.cn.谢胤岑,硕士研究生,主要研究方向为计算机视觉.E-mail:2021111090@mail.hfut.edu.cn.
引用本文:   
薛峰, 洪自坤, 李书杰, 李雨, 谢胤岑. 基于Vision Transformer的中文唇语识别[J]. 模式识别与人工智能, 2022, 35(12): 1111-1121. XUE Feng, HONG Zikun, LI Shujie, LI Yu, XIE Yincen. Chinese Lipreading Network Based on Vision Transformer. Pattern Recognition and Artificial Intelligence, 2022, 35(12): 1111-1121.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202212006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2022/V35/I12/1111
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn